平均意见评分(MOS)是语音合成系统的典型主观评估指标。由于收集MOS是耗时的,因此如果有自动评估的准确MOS预测模型,那将是可取的。在这项工作中,我们提出了一个新型MOS预测模型DDOS。DDOS利用域自适应预训练来进一步预训练自制的学习模型,以进行合成语音。并添加了一个建议的模块来对每个话语的意见分数分布进行建模。使用提出的组件,DDOS在BVCC数据集上的表现优于先前的作品。BC2019数据集的零射击传输结果得到显着改善。DDO还以系统级别的分数在Interspeech 2022 Voicemos挑战中赢得了第二名。
translated by 谷歌翻译
最近,在持续演讲中调整自我监督学习(SSL)的想法已开始受到关注。在大量未标记的音频上预先培训的SSL模型可以生成有利于各种语音处理任务的通用表现形式。尽管他们无处不在的部署,但这些模型的潜在隐私风险并没有得到很好的调查。在本文中,我们在黑盒访问下使用会员资格推论攻击(MIA)提供了几个SSL语音模型的第一个隐私分析。实验结果表明,这些预训练的模型容易受到米娅的攻击,并且在话语级别和扬声器级别的高对抗性优势分数具有高的对抗性优势。此外,我们还开展了几项消融研究,以了解有助于米亚成功的因素。
translated by 谷歌翻译
End-to-End speech-to-speech translation (S2ST) is generally evaluated with text-based metrics. This means that generated speech has to be automatically transcribed, making the evaluation dependent on the availability and quality of automatic speech recognition (ASR) systems. In this paper, we propose a text-free evaluation metric for end-to-end S2ST, named BLASER, to avoid the dependency on ASR systems. BLASER leverages a multilingual multimodal encoder to directly encode the speech segments for source input, translation output and reference into a shared embedding space and computes a score of the translation quality that can be used as a proxy to human evaluation. To evaluate our approach, we construct training and evaluation sets from more than 40k human annotations covering seven language directions. The best results of BLASER are achieved by training with supervision from human rating scores. We show that when evaluated at the sentence level, BLASER correlates significantly better with human judgment compared to ASR-dependent metrics including ASR-SENTBLEU in all translation directions and ASR-COMET in five of them. Our analysis shows combining speech and text as inputs to BLASER does not increase the correlation with human scores, but best correlations are achieved when using speech, which motivates the goal of our research. Moreover, we show that using ASR for references is detrimental for text-based metrics.
translated by 谷歌翻译
We present a noisy channel generative model of two sequences, for example text and speech, which enables uncovering the association between the two modalities when limited paired data is available. To address the intractability of the exact model under a realistic data setup, we propose a variational inference approximation. To train this variational model with categorical data, we propose a KL encoder loss approach which has connections to the wake-sleep algorithm. Identifying the joint or conditional distributions by only observing unpaired samples from the marginals is only possible under certain conditions in the data distribution and we discuss under what type of conditional independence assumptions that might be achieved, which guides the architecture designs. Experimental results show that even tiny amount of paired data (5 minutes) is sufficient to learn to relate the two modalities (graphemes and phonemes here) when a massive amount of unpaired data is available, paving the path to adopting this principled approach for all seq2seq models in low data resource regimes.
translated by 谷歌翻译
本文提出了一种增强学习(RL)框架,该框架利用Frank-Wolfe策略优化来解决利益区域(ROI)内部框架内编码的编码-Tree-Unit(CTU)位分配。大多数以前的基于RL的方法采用了单批评家设计,其中失真最小化和速率正则化的奖励是通过经验选择的超参数加权的。最近,提出了双批评设计,以通过交替的速度和失真批评者来更新演员。但是,它的收敛不能保证。为了解决这些问题,我们介绍了神经弗兰克 - 沃尔夫政策优化(NFWPO),以将CTU级分配作为动作约束的RL问题进行制定。在这个新框架中,我们利用费率评论家来预测一套可行的行动。借助这套可行的集合,援引失真的评论家来更新演员,以最大程度地提高ROI加权图像质量受速率约束。用X265产生的实验结果证实了所提出的方法比其他基线的优越性。
translated by 谷歌翻译
稀疏性已成为压缩和加速深度神经网络(DNN)的有前途方法之一。在不同类别的稀疏性中,由于其对现代加速器的有效执行,结构化的稀疏性引起了人们的关注。特别是,n:m稀疏性很有吸引力,因为已经有一些硬件加速器架构可以利用某些形式的n:m结构化稀疏性来产生更高的计算效率。在这项工作中,我们专注于N:M的稀疏性,并广泛研究和评估N:M稀疏性的各种培训食谱,以模型准确性和计算成本(FLOPS)之间的权衡(FLOPS)。在这项研究的基础上,我们提出了两种新的基于衰减的修剪方法,即“修剪面膜衰减”和“稀疏结构衰减”。我们的评估表明,这些提出的方法始终提供最新的(SOTA)模型精度,可与非结构化的稀疏性相当,在基于变压器的模型上用于翻译任务。使用新培训配方的稀疏模型准确性的提高是以总训练计算(FLOP)边际增加的成本。
translated by 谷歌翻译
如今,分布式文件系统已被广泛使用,但是使用其默认配置通常不是最佳的。同时,调整配置参数通常具有挑战性且耗时。它需要专业知识和调整操作也可能很昂贵。静态参数尤其是这种情况,仅在重新启动系统或工作负载后,更改才会生效。我们提出了一种新颖的方法,即Magpie,该方法利用深厚的加固学习来通过策略性探索和利用配置参数空间来调整静态参数。为了增强静态参数的调整,我们的方法使用分布式文件系统的服务器和客户端指标来了解静态参数与性能之间的关系。我们的经验评估结果表明,喜p可以明显改善分布式文件系统光泽的性能,在此过程中,我们的方法平均在朝着单个性能指标优化后,在默认配置方面取得了91.8%的吞吐量增益,而它达到39.7%的吞吐量增加了39.7%基线。
translated by 谷歌翻译
我们提出了一个基于最小描述长度(MDL)原理的多任务加固学习的新颖框架。在我们称MDL-Control(MDL-C)的这种方法中,代理商在面临的任务中学习了共同的结构,然后将其提炼成更简单的表示,从而促进更快的收敛性和对新任务的概括。这样一来,MDL-C自然将适应性适应与任务分布的认知不确定性平衡。我们通过MDL原理与贝叶斯推论之间的正式联系来激励MDL-C,得出理论性能保证,并在离散和高维连续控制任务上证明了MDL-C的经验有效性。从经验上讲,该框架用于修改现有的策略优化方法,并在离散和高维连续控制问题中改善其多任务性能。
translated by 谷歌翻译
最近,与“预训练,及时和预测”的新范式相比,与“预训练,微调”范式相比,新的范式“预训练,及时和预测”取得了显着的成就。在基于及时的GPT-3成功之后,一系列基于蒙版的语言模型(MLM)(例如Bert,Roberta)及时学习方法变得流行并广泛使用。但是,另一个有效的预训练的判别模型Electra可能被忽略了。在本文中,我们尝试使用拟议的替换代替令牌检测(RTD)基于基于的及时学习方法来完成零摄像的几个NLP任务。实验结果表明,基于RTD-Prompt学习的Electra模型可达到令人惊讶的最先进的零拍性能。在数字上,与MLM-Roberta-Large和MLM-Bert-Large相比,我们的RTD-Electra-Large在所有15个任务上平均提高了约8.4%和13.7%。特别是在SST-2任务上,我们的RTD-Electra-Large在没有任何培训数据的情况下达到了令人惊讶的90.1%精度。总体而言,与预先训练的蒙版语言模型相比,预先训练的代替令牌检测模型在零拍学习中的性能更好。因此,Electra是一位出色的零球学习者。源代码可在以下网址获得:https://github.com/nishiwen1214/rtd-electra。
translated by 谷歌翻译
IT操作的人工智能(AIOPS)描述了使用各种AI-AI-ai-ai-a-ables方法和工具维护和操作大型IT系统的过程稳定IT活动。任何AIOPS工作流程的核心步骤是异常检测,通常在高量异质数据上执行,例如日志消息(日志),指标(例如CPU利用率)和分布式痕迹。在本文中,我们提出了一种从系统日志中可靠和实用异常检测的方法。它通过构建使用1000+ github项目源代码的日志指令来构建一个异常检测模型来克服相关工作的常见缺点,即需要大量手动标记的培训数据。来自不同系统的说明包含有关许多不同正常和异常IT事件的丰富和异体信息,并作为异常检测的基础。所提出的名为Adlilog的方法结合了日志指令和来自感兴趣系统(目标系统)的数据,以通过两阶段的学习过程来学习深度神经网络模型。实验结果表明,ADLILOG的表现优于相关方法的F1分数高达60%,同时满足工业部署的核心非功能性要求,例如无监督设计,有效的模型更新和小型模型尺寸。
translated by 谷歌翻译